EfficientML.ai Lecture 15Long-Context LLM

Context Extension

先介绍了长度外推的相关工作RoPE和LongLoRA，与我们工作关系度不大，所以只是大概了解了一下这两个工作。

The Lost-in-the-Middle Phenomenon

LLM如何有效地利用长上下文的信息

相关信息出现在开头和结尾，准确率比较高；假如相关信息出现在中间，准确率比较低。

所以长上下文相比速度快，更加需要解决的一个问题就是：长文本情况下的有效性问题

Long-Context Benchmarks

Needle In A Haystack

在文档的不同地方插入信息，并在最后进行询问
LongBench

有关长上下文问题的更全面评估的benchmark，包含6个任务类型的21个数据集，支持13000+tokens的上下文，并使用F1和ROUGE等指标自动评估。

scaled position embeddings可以增加长上下文理解